spark的优化 |
您所在的位置:网站首页 › spark groupbykey数据倾斜 › spark的优化 |
1.避免创建重复的RDD; 2.尽可能使用同一个RDD 3.对多次使用的RDD进行持久化 4.尽量避免使用shuffle类算子 5.使用map-side预聚合的shuffle操作 6.使用高性能的算子 7.广播大变量 8.使用Kryo优化序列化性能: java Kryo 9.优化数据结构: 对象,字符串,集合都比较占用内存 字符串代替对象 数组 代替集合 使用原始类型(比如Int、Long)替代字符串 优化数据结构 10.资源调优 11.spark调优数据倾斜调优:map filter 数据倾斜的概念:一批数据中相同key的数据过多而导致其他reducetask跑完,而一个reducetask迟迟跑不完,甚至触发OOM的现象,称为数据倾斜。 解决: 1、使用Hive ETL预处理数据 2、过滤少数导致倾斜的key 3、提高shuffle操作的并行度 4、两阶段聚合(局部聚合+全局聚合) 5、将reduce join转为map join 6、采样倾斜key并分拆join操作 7、使用随机前缀和扩容RDD进行join 8、多种方案组合使用 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |